#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2017/4/27 下午6:03
# @Author  : zhangzhen
# @Site    : 
# @File    : TextRank4Sentence_test.py
# @Software: PyCharm
from __future__ import print_function
import re
import sys
try:
    reload(sys)
    sys.setdefaultencoding('utf-8')
except:
    pass

import codecs
from com.textrank4zh import TextRank4Sentence

# text = codecs.open('./doc/03.txt', 'r', 'utf-8').read()
text = "གཞན་/rd ནོར་/n སྙེམས་/v པ/h ས་/ki འཁྱེར་/v བ/h །/xp " \
       "ས་/n ལམ་/n རིང་/a པོ/af ས་/ki བཅད་/v ཀྱང་/c དད་/n དམ་/n འཕོ་/n མེད་/ve ཀྱི་/kg འདུན་/n པ་/nf ཆད་/v མེད་/ve ལགས/v །/xp " \
       "ཆབ་/n མདོ་/n དང་/c ལྷོ་/n ཁ་/n ནས་/kc བུད་/v པ/h འི་/kg ནས་/n འབྲུ/n འི་/kg ས་/n བོན/n །/xp ལོ་/n ངོ་/n བཞི་/m སྟོང་/m དང་/c ལྔ་/m སྟོང་/m གི་/kg སྐབས་/n ཀྱི་/kg ཡིན/vl །/xp "

# s_tag = r'/(.*?)[ ]'
# text = re.sub(s_tag, ' ', text)

tr4s = TextRank4Sentence.TextRank4Sentence()
tr4s.analyze(text=text, lower=True, source='all_filters')

for st in tr4s.sentences:
    print(type(st), st)

print(100*'*')
for item in tr4s.get_key_sentences(num=4):
    print(item.weight, item.sentence, type(item.sentence))
